بررسی ویژگی های مقاوم برگرفته از سیستم شنوایی در تصدیق مستقل از متن گوینده برای محیط های واقعی

thesis
abstract

سیگنال گفتار یکی از واسط های ارتباطی میان انسان هاست که انواع مختلفی از اطلاعات را در خود دارد. بسته به نوع این اطلاعات کاربردهای مختلفی برای آن بوجود آمده است، که از آن جمله میتوان به تشخیص گوینده، گفتار، احساس، لهجه و زبان اشاره کرد. یکی از وظایف سیستم های تشخیص گوینده ، تصدیق هویت کاربر می باشد که هدف آن تایید یا رد گوینده مدعی به عنوان فرد مورد نظر سیستم است. اگر محتوای صحبت شخص گوینده در تصدیق، مورد توجه نباشد عمل تشخیص مستقل از متن صورت می گیرد، که به دلیل کارایی بالا و صرف زمان و هزیته کمتر نسبت به حالت وابسته به متن، بیشتر در کاربردهای عملی مورد استفاده قرار گرفته است. استخراج ویژگی، مدل سازی و تطبیق الگو سه بخش مهم یک سیستم تصدیق هویت گوینده مستقل از متن را تشکیل می دهند. در این میان، بلوک استخراج ویژگی به دلیل تنوع مدل سازی های موجود از سیستم شنوایی و همچنین، روش های مختلف کاهش اثر اعوجاجِ در محیط های واقعی، از اهمیت بالایی در امرِ کاهش خطای چنین سیستم هایی برخوردار است. از این رو در این پایان نامه، تحقیق و مطالعه بر روی تعمیم ویژگی های الگوریتم های متداول استخراج ویژگی است. نتایج این مطالعه معرفی سه ویژگی جدید به نامهای ضرایب کپسترال نرمالیزه شده توان مبتنی بر طیف چند پنجرهای (multitaper-pncc)، ضرایب کپسترال نرمالیزه شده توان اصلاح شده (mpncc)، و ضرایب کپسترال نرمالیزه شده مبتنی بر تبدیل شنوایی (cfpncc) پیشنهاد گردیده است. ویژگی پیشنهادی اول که multitaper pncc نام دارد، از تغییر واحد تبدیل فوریه زمان کوتاه در الگوریتم استخراج pncc به تخمین طیف چندپنجره ای بدست می آید. ویژگی پیشنهادی دوم با عنوان mpncc علاوه بر بهره گیری از این تخمین، با اعمال فیلتر پیش تاکید در هر فریم از سیگنال گفتار به استفاده توام از اطلاعات فرکانس های بالا و پایین می پردازد. عنوان آخرین الگوریتم پیشنهادی، cfpncc است که با تغییر فیلتربانک گاماتون به (فیلتربانک) تبدیل شنوایی ارائه شده توسط li و همکاران به دست می آید. به طور معمول بازده سیستمهای تصدیق هویت که بر اساس داده های تمیز آموزش داده می شوند، به هنگام بکارگیری در شرایط نویزی، به طور قابل توجهی کاهش می یابد. ویژگی های پیشنهادی، در چنین شرایطی (شرایط عدم انطباق آموزش و تست)، مقاومت زیادی را از خود نشان می دهند. همانگونه که در نتایج شبیه سازی های انجام شده در دو سیستم پرکاربرد مبتنی بر مدل مخلوط گوسی و ivector نشان داده شده است، ضرایب پیشنهادی multitaper pncc و mpncc در نویزهای غیر ایستان، و cfpncc در حضور نویز ایستان (برای مثال، سفید) نرخ خطای کمتری را نسبت به سایر ویژگی های متداول کارایی بالاتری را دارا هستند.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

طبقه‌بندی شورایی تطبیقی برای تصدیق گوینده مستقل از متن

این مقاله مسئله طبقه‌بندی شورایی را برای تصدیق گوینده مستقل از متن بررسی می‌کند. ازآنجاکه ممکن است یک طبقه‌بند از اطلاعات مختلف سیگنال گفتار بهره نبرد، استفاده از یک طبقه‌بند برای تصدیق گوینده ممکن است منجر به تصمیم قابل‌اعتمادی نشود. بنابراین بهترین سامانه‌های تصدیق گوینده از مجموعه‌ای از طبقه‌بندهای مکمل برای رسیدن به تصمیمات قابل‌اعتماد استفاده می‌کنند. در اکثر مطالعات اخیر که روی ترکیب طبقه...

full text

طراحی ماسک مبتنی بر سیستم شنیداری در تصدیق مستقل از متن گوینده برای محیط های واقعی

در این پایان نامه، روش های جدید طراحی ماسک مبتنی بر ساختار شنیداری به منظور استفاده در سیستم های تصدیق گوینده در شرایط واقعی آکوستیکی پیشنهاد می شوند. برای نیل به این هدف، ابتدا، ماسک های انتخاب کانال ایده ال (ics)، شامل ics-ds، ics-er و ics-r، مبتنی بر ویژگی های gf، mf، rasta و pn طراحی شده و در سیستم تصدیق گوینده مورد استفاده قرار می گیرند. از آنجا که عملکرد سیستم تصدیق گوینده مبتنی بر mf-ics...

طبقه بندی شورایی تطبیقی برای تصدیق گوینده مستقل از متن

این مقاله مسئله طبقه بندی شورایی را برای تصدیق گوینده مستقل از متن بررسی می کند. ازآنجاکه ممکن است یک طبقه بند از اطلاعات مختلف سیگنال گفتار بهره نبرد، استفاده از یک طبقه بند برای تصدیق گوینده ممکن است منجر به تصمیم قابل اعتمادی نشود. بنابراین بهترین سامانه های تصدیق گوینده از مجموعه ای از طبقه بندهای مکمل برای رسیدن به تصمیمات قابل اعتماد استفاده می کنند. در اکثر مطالعات اخیر که روی ترکیب طبقه...

full text

تصدیق مستقل از متن هویت گوینده بر اساس مدلسازی گفتار

بازشناسی گوینده به تشخیص افراد مختلف از طریق صدای آن ها گفته می شود. سامانه هایی بازشناسی گوینده طی سه مرحله استخراج ویژگی، محاسبه امتیاز مدل و تصمیم گیری بر اساس امتیاز حاصل، گوینده های متفاوت را از یکدیگر جدا می کنند. مهمترین چالش چنین سامانه هایی تغییر شرایط ضبط گوینده می باشد که به مسأله متغیر بودن کانال مشهور است. روش های متفاوتی برای غلبه بر مشکل تغییر کانال در هر سه مرحله ارائه شده است. ...

15 صفحه اول

روشی جدید در تشخیص گوینده مستقل از متن در محیط های نویزی

در این مقاله بازشناسی مقاوم به نویز گوینده در حالت مستقل از متن مورد توجه قرار گرفته است. روش پیشنهادی بر مبنای حذف سکوت از جملات و تقطیع آنها به واحدهای کوچک تر شامل چند آوا و حداقل یک واکه برای استخراج ویژگی های زمان بلند از جمله آنتروپی عمل می کند. یک واکه پرانرژی در هر قطعه گفتاری برای استخراج فرکانس پایه و فرمنت ها شناسایی می شود. با اعمال یک روش خوشه بندی، ویژگی های زمان­کوتاه یعنی ضرایب ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده برق و کامپیوتر

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023